本篇是一個入門介紹文,探討的議題是微服務架構下的監控架構要有什麼樣的元件與功能
Observability 基本上現在已經是個顯學,任何的叢集架構都需要有一個匹配的監控系統來(主動or被動)告知當前各種元件的狀況,讓維運人員能夠儘早地針對問題處理,減少任何損失。
普遍主流認為可觀測性底下目前有三大類別,分別是
- Metrics
- Logs
- Tracing
監控系統必須要能夠讓維運人員知道什麼元件壞掉以及為什麼,維運人員能夠快速簡單的定位問題的可能點,並且快速的找到真正的 root cause。作者認為發生問題時最重要的就是要找對地方,就算今天環境中架設了各式各樣的儀表板並且收集了四面八方的資料,如果發生問題時沒有辦法準確的找到進入點,那再多的工具也都沒有用途。
作者列舉了四個必須要從任何服務都要收集的相關 Metrics,包含
- Latency: 每個服務請求花費的時間
- Errors: 系統中發生錯誤的訊息,甚至是沒有辦法被正確處理的請求
- Traffic
- Saturation: 服務用量的測量,譬如CPU/Memory/Disk/Network
接者要針對每個 Metrics 選決定一個適合的觀察類別,譬如說
1. Counters: 透過數值來表示各種可累積的 metrics,譬如 request 的數量, error 的數量。
2. Gauges: 透過數值來表示一種會上下起伏變化的 metrics, 譬如跟 database 的連線數量, 記憶體/CPU 的使用量,系統平均負載值
3. Histograms: 需要將取樣觀察結果依照不同類別來分類顯示,譬如 I/O latency
當監控系統建置完畢後,接下來就要有能力使用該系統來進行主動回報,也就是所謂的 Alert 系統。
當元件的狀況符合預先設定的條件時,就要通知維運人員來檢查與處理,這邊作者特別提到針對 Alert 的規則必須要仔細的設定分類與優先度,特別是當某些服務或是底層架構觸發時,可能會一口氣觸發多個 Alert 通知,這時候要如何快速的從眾多警報中找到真正的源頭就經驗搭配良好的系統規劃。
https://medium.com/@milan.brankovic/monitoring-microservices-e0f89496fa9e
「logs to metrics」的推薦目錄:
- 關於logs to metrics 在 矽谷牛的耕田筆記 Facebook 的最讚貼文
- 關於logs to metrics 在 Logs vs Metrics vs Traces - Code With Engineering Playbook 的評價
- 關於logs to metrics 在 How to Generate Metrics from Logs | Datadog Tips & Tricks 的評價
- 關於logs to metrics 在 Logs vs Metrics and implementations - GitHub Gist 的評價
- 關於logs to metrics 在 How do I configure a logs-based metric to sum some values ... 的評價
logs to metrics 在 How to Generate Metrics from Logs | Datadog Tips & Tricks 的推薦與評價
In this video, you'll learn how to generate metrics using log events attributes to filter your logs more effectively and begin monitoring, ... ... <看更多>
logs to metrics 在 Logs vs Metrics and implementations - GitHub Gist 的推薦與評價
These are logging as exemplified by Elasticsearch as part of the ELK stack (Elasticsearch, Logstash and Kibana), and metrics as exemplified by the TICK ... ... <看更多>
logs to metrics 在 Logs vs Metrics vs Traces - Code With Engineering Playbook 的推薦與評價
Metrics. The purpose of metrics is to inform observers about the health & operations regarding a component or system. · Logs. Log data inform ... ... <看更多>